查看原文
其他

论文推荐|[PR 2019]基于上下文感知网络模型的手写古籍文档图像信息抽取方法

廖倩颖 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍2019 Pattern Recognition论文“Information Extraction from Historical Handwritten Document Images with a Context-aware Neural Model”的主要工作。该论文的主要任务是从结构化的古籍手写文档中进行信息抽取,是论文作者于2016年发表的文章[1]的拓展。文章[1]提出了一种无需先进行文本转录就可以直接对历史手稿图片抽取信息的方法。在此基础上,该论文提出了基于两种语言模型的网络结构,通过充分利用上下文信息来大幅改善信息抽取的效果。

一、研究背景

许多历史手稿都记录了大量过去社会的宝贵信息。如图1所示,这些信息的登记往往都是结构化的,例如洗礼记录(上图)、死亡记录(左图)、病历(右图)以及结婚记录(下图)。抽取这些历史手稿中的信息,从而生成具有语义标记的数据库对于历史研究、文化遗产的保存和传播等方面具有重大的意义。对手稿图片进行信息抽取的常见方法是先进行手写文本识别(Handwritten Text Recognition, HTR),再利用自然语言处理(Natural Language Processing, NLP)技术对每个单词进行语义分析。而该论文使用的是另一种方法,即直接从单词图片中获取视觉信息进行语义分析,而将文本识别作为最后一步。


图1 结构化的手写古籍文档

二、方法原理简述 

作者沿用了在文章[1]中提出的卷积网络结构来提取单词图片的视觉特征(Visual Features)。该网络和标准CNN的不同之处在于使用了空间金字塔池化(Spatial Pyramid Pooling[2], SPP)层,这可以处理具有不同的形状与长宽比的图片。为利用上下文信息来改善信息抽取的效果,该论文将卷积网络分别与两种语言模型相结合,分别是基于Bigram的语言模型以及基于BLSTM的语言模型。

带有基于Bigram的语言模型的网络结构如图2所示。从图2可以看出该语言模型有两个输入:当前单词图片以及上一张图片的标签。单词图片经过主干网络的卷积和SPP处理,而上一张图片的标签需要经过三个全连接层,之后将两者合并,再送入全连接层得到当前图片的类别(Category)标签的预测值。


图2 结合Bigram语言模型的网络结构
 
尽管基于Bigram的语言模型可以考虑到上一个预测值,但是不能捕捉长序列的信息,所以该论文又利用基于LSTM的语言模型[3]来对上下文信息进行建模,具体结构见图3。与前者不一样的是,该语言模型只使用了单词图片的视觉信息,而没有结合标签信息,并且通过LSTM的隐藏层状态(Hidden State)来表征图片之间的关系。因为BLSTM可以捕捉到图片之间的关系,所以BLSTM不仅输出了类别(Category)标签的预测值,还输出了人物(Person)标签的预测值。注意,为训练该网络,一条记录作为一个时间序列样本,每个单词图片表征一个时间步。


图3 结合BLSTM语言模型的网络结构
 
三、主要实验结果及可视化结果

该论文在ICDAR2017竞赛数据集IEHHR[4]上与其他论文中的方法进行了对比,结果见表1。需要说明的是,该竞赛根据不同任务分为两个部分,分别以Basic Score和Complete Score作为评分。而且为体现完整性,作者也呈现了文本行级别的识别方法及结果,但不参与对比。

从结果中可以看出,该论文的方法在所有情况下都优于作者之前在文章[1]中提出的方法(Word Level CNN),证明了上下文信息的利用在信息抽取中是非常重要的。基于Bigram语言模型的方法在Basic Score达到了87.98%,和其他论文中的方法相比位列第二;而在Complete Score只有79.68%,主要是因为该语言模型的语法规则太简单。而基于BLSTM语言模型的方法在Basic Score和Complete Score上分别达到了94.62%和94.02%,均是目前最好的效果。 

 
表1 多种方法的性能比较


表2和表3是基于BLSTM的模型在类别标签的混淆矩阵。从表2可以看出,最难识别的是姓氏(Surname),因为该类别的样本数较少;除此之外,有些姓氏(Surname)与名字(Name)、职业(Occupation)具有相同的拼写,所以它们也更容易被混淆。而从表3的混淆矩阵可以看出,人物之间的混淆程度很低。

表2 基于BLSTM的模型关于类别(Category)标签的混淆矩阵

 
表3 基于BLSTM的模型关于人物(Person)标签的混淆矩阵

 

图4 预测结果(红色标记的是错误的预测) 

四、总结及讨论

该论文提出了两种神经网络结构来对古籍手写文档进行信息抽取。相较于先转录文本再进行语义分类的方法,该论文的方法无需转录就可以直接将文档图片进行语义分类从而达到信息抽取的目的。这种方法有两种优点:一是不受转录效果影响,二是无需基于字典对转录的结果进行语义分类,不会出现单词超纲(out of  Vocabulary)的情况。

未来的研究方向:
  1. 不在单词级别而在文本行行级别或者篇幅级别的图片上进行信息抽取。例如,可以采用基于内容的注意力机制。
  2. 利用数据增广技术增加模型的泛化能力,甚至使得模型能够探索位于不同区域的单词之间的关系。
  3. 探索如何利用语义标签来改善转录效果。
  4. 将直接从图片中抽取信息的方法与基于转录的方法相结合,或许可以带来性能的提升。 

五、相关资源
  • Information extraction from historical handwritten document images witha context-aware neural model论文地址:https://www.sciencedirect.com/science/article/pii/S0031320318303145/pdfft?md5=2f3d29b8fffe16fff2ac178620addffa&pid=1-s2.0-S0031320318303145-main.pdf

  • Handwritten wordimage categorization with convolutional neural networks and spatial pyramidpooling论文地址:http://www.cvc.uab.es/people/afornes/publi/chap_lncs/2016_LNCS_JIToledo.pdf

  • Spatial PyramidPooling in Deep Convolutional Networks for Visual Recognition 论文地址:https://arxiv.org/abs/1406.4729

  • LSTM neural networks for language modeling论文地址:https://pdfs.semanticscholar.org/f9a1/b3850dfd837793743565a8af95973d395a4e.pdf

  • ICDAR 2017 Competition on Information Extraction inHistorical Handwritten Records (IEHHR) 竞赛主页:http://www.cvc.uab.es/5cofm/competition/ 


参考文献

[1] Toledo JI,Sudholt S, Fornés A, et al. Handwritten word image categorization with convolutional neural networks and spatial pyramid pooling[C]//Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Springer, Cham, 2016:543-552.

[2] He K, Zhang X, Ren S, et al. Spatial pyramid pooling indeep convolutional networks for visual recognition[J]. IEEE transactions onpattern analysis and machine intelligence, 2015, 37(9): 1904-1916.

[3] Sundermeyer M, Schlüter R, Ney H. LSTM neural networksfor language modeling[C]//Thirteenth annual conference of the internationalspeech communication association. 2012.

[4] Fornés A, Romero V, Baró A, et al. ICDAR2017 competitionon information extraction in historical handwritten records[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE,2017, 1: 1389-1394.



原文作者:J.Ignacio Toledo, Manuel Carbonell, Alicia Fornés, Josep Lladós


撰稿:廖倩颖

编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾




征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。



(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存